在智能制造中,机器翻译工程图的质量将直接影响其制造精度。目前,大多数工作都是手动翻译的,大大降低了生产效率。本文提出了一种基于环状生成对抗网络(Cyclegan)的焊接结构工程图的自动翻译方法。不成对转移学习的Cyclegan网络模型用于学习真实焊接工程图的功能映射,以实现工程图的自动翻译。 U-NET和PatchGAN分别是生成器和鉴别器的主要网络。基于删除身份映射函数,提出了一个高维稀疏网络,以取代传统的密集网络以改善噪声稳健性。增加残留块隐藏层以增加生成图的分辨率。改进和微调的网络模型经过实验验证,计算实际数据和生成数据之间的差距。它符合焊接工程精度标准,并解决了焊接制造过程中低绘图识别效率的主要问题。结果显示。在我们的模型训练之后,焊接工程图的PSNR,SSIM和MSE分别达到44.89%,99.58%和2.11,它们在训练速度和准确性方面都优于传统网络。
translated by 谷歌翻译
重型设备制造将特定的轮廓分解为图纸,并切割钣金以缩放焊接。当前,手动实现了焊接图轮廓的大多数分割和提取。它的效率大大降低了。因此,我们提出了一种基于U-NET的轮廓分割和用于焊接工程图的提取方法。工程图纸所需的零件的轮廓可以自动划分和清空,从而大大提高了制造效率。 U-NET包括一个编码器,该编码器通过语义差异和编码器和解码器之间的空间位置特征信息实现端到端映射。尽管U-NET擅长于细分医学图像,但我们在焊接结构图数据集上进行的广泛实验表明,经典的U-NET体系结构在细分焊接工程图纸方面缺乏。因此,我们设计了一种新型的通道空间序列注意模块(CSSAM),并在经典的U-NET上进行改进。同时,提出了垂直最大池和平均水平池。通过两个相等的卷积将池操作传递到CSSAM模块中。汇总之前的输出和功能通过语义聚类融合在一起,它取代了传统的跳跃结构,并有效地缩小了编码器和解码器之间的语义差距,从而改善了焊接工程图的分割性能。我们使用VGG16作为骨干网络。与经典的U-NET相比,我们的网络在工程绘图数据集细分方面具有良好的性能。
translated by 谷歌翻译
言语的数字,例如隐喻和讽刺,在文学作品和口语对话中无处不在。这对自然语言理解构成了巨大的挑战,因为语音的数字通常偏离表面上表达更深层次的语义含义的含义。先前的研究强调了数字的文学方面,很少从计算语言学的观点提供全面的探索。在本文中,我们首先提出了象征性单元的概念,该单元是人物的载体。然后,我们选择了中文常用的12种类型的数字,并构建中文语料库以进行上下文化的图形识别(配置)。与以前的令牌级别或句子级别对应物不同,配置旨在从话语级别的上下文中提取象征性单元,并将象征性单元分类为正确的图类型。在配置时,设计了三个任务,即图形提取,图类型分类和图形识别,并使用最新技术来实现基准。我们进行彻底的实验,并表明所有三个任务对于现有模型都充满挑战,因此需要进一步研究。我们的数据集和代码可在https://github.com/pku-tangent/configure上公开获取。
translated by 谷歌翻译
异常检测旨在识别正常数据分布的偏差样本。对比学习提供了一种成功的样本表示方式,可以有效地歧视异常。但是,当在半监督环境下设置的训练中被未标记的异常样本污染时,当前基于对比的方法通常1)忽略训练数据之间的全面关系,导致次优的性能,2)需要微调,导致低效率的低效率。为了解决上述两个问题,在本文中,我们提出了一种新型的分层半监督对比学习(HSCL)框架,以抗污染异常检测。具体而言,HSCL分层调节了三个互补关系:样本到样本,样本到原型型和正常关系,通过对受污染数据的全面探索,扩大了正常样本和异常样本之间的歧视。此外,HSCL是一种端到端的学习方法,可以在不进行微调的情况下有效地学习判别性表示。 HSCL在多种方案中实现了最先进的性能,例如单级分类和跨数据库检测。广泛的消融研究进一步验证了每个考虑的关系的有效性。该代码可在https://github.com/gaoangw/hscl上找到。
translated by 谷歌翻译
最先进的参数和非参数样式转移方法容易导致由于全局统计的对准而导致的本地样式模式,或者由于补丁不匹配而导致的不愉快的人工制品。在本文中,我们研究了一种新型的半参数神经风格转移框架,可减轻参数和非参数风格的缺乏。我们方法的核心思想是使用图神经网络(GNN)建立准确且细粒的内容样式对应关系。为此,我们开发了一个详细的GNN模型,其中包含内容和样式的本地补丁作为图形顶点。然后,将样式转移过程建模为基于注意力的异质消息,以可学习的方式在样式和内容节点之间传递,从而导致本地补丁级别的自适应多一对一风格的相关性。此外,引入了详细的可变形图卷积操作,以进行跨尺度样式符合匹配。实验结果表明,所提出的半参数图像样式化方法可为具有挑战性的样式模式产生令人鼓舞的结果,从而保留了全球外观和精美的细节。此外,通过控制推理阶段的边缘数量,提出的方法还触发了新的功能,例如使用单个模型的多元化基于斑块的风格化。
translated by 谷歌翻译
基于对比度学习的基于自我监督的骨架识别引起了很多关注。最近的文献表明,数据增强和大量对比度对对于学习此类表示至关重要。在本文中,我们发现,基于正常增强的直接扩展对对比对的表现有限,因为随着培训的进展,对比度对从正常数据增强到损失的贡献越小。因此,我们深入研究了对比对比对的,以进行对比学习。由混合增强策略的成功激励,通过综合新样本来改善许多任务的执行,我们提出了Skelemixclr:一种与时空的学习框架,具有时空骨架混合增强(Skelemix),以补充当前的对比样品,以补充当前的对比样品。首先,Skelemix利用骨架数据的拓扑信息将两个骨骼序列混合在一起,通过将裁切的骨骼片段(修剪视图)与其余的骨架序列(截断视图)随机梳理。其次,应用时空掩码池在特征级别上分开这两个视图。第三,我们将对比度对与这两种观点扩展。 SkelemixClr利用修剪和截断的视图来提供丰富的硬对比度对,因为它们由于图形卷积操作而涉及彼此的某些上下文信息,这使模型可以学习更好的运动表示以进行动作识别。在NTU-RGB+D,NTU120-RGB+D和PKU-MMD数据集上进行了广泛的实验表明,SkelemixClr实现了最先进的性能。代码可在https://github.com/czhaneva/skelemixclr上找到。
translated by 谷歌翻译
神经辐射场(NERF)通过从多视图2D图像中隐式建模3D表示,在新型视图合成中表现出非常令人印象深刻的性能。但是,大多数现有的研究都使用合理的相机姿势初始化或手动制作的摄像头分布来训练NERF模型,这些分布通常不可用或在各种真实世界中很难获取。我们设计了VMRF,这是一种匹配NERF的创新视图,可以进行有效的NERF培训,而无需在相机姿势或相机姿势分布中进行先验知识。 VMRF引入了视图匹配方案,该方案利用了不平衡的最佳传输来制定功能传输计划,以映射带有随机初始化的摄像头姿势的渲染图像,以映射到相应的真实图像。通过功能传输计划作为指导,设计了一种新颖的姿势校准技术,可以通过预测两对渲染图像和真实图像之间的相对姿势转换来纠正最初的随机摄像头姿势。对许多合成数据集进行的广泛实验表明,所提出的VMRF的性能优于最先进的质量和定量,这是大幅度的。
translated by 谷歌翻译
鲁棒性和准确性是工业检查的两个关键指标。在本文中,我们提出的基准可以评估结构化光方法的性能。我们的评估指标是从工厂中的许多检查任务中学习。我们提出的指标包括四个详细标准,例如平坦,长度,高度和球形。然后,我们可以判断是否可以通过我们的评估指标将结构化的光方法/设备应用于指定的检查任务。在最终实验部分中,通过我们的指标评估了用于打字针针检查性能的结构化轻型设备。
translated by 谷歌翻译
复杂的水下环境为物体检测带来了新的挑战,例如未平衡的光条件,低对比度,阻塞和水生生物的模仿。在这种情况下,水下相机捕获的物体将变得模糊,并且通用探测器通常会在这些模糊的物体上失败。这项工作旨在从两个角度解决问题:不确定性建模和艰难的例子采矿。我们提出了一个名为Boosting R-CNN的两阶段水下检测器,该检测器包括三个关键组件。首先,提出了一个名为RetinArpn的新区域建议网络,该网络提供了高质量的建议,并考虑了对象和IOU预测,以确定对象事先概率的不确定性。其次,引入了概率推理管道,以结合第一阶段的先验不确定性和第二阶段分类评分,以模拟最终检测分数。最后,我们提出了一种名为Boosting Reweighting的新的硬示例挖掘方法。具体而言,当区域提案网络误认为样品的对象的事先概率时,提高重新加权将在训练过程中增加R-CNN头部样品的分类损失,同时减少具有准确估计的先验的简易样品丢失。因此,可以在第二阶段获得强大的检测头。在推理阶段,R-CNN具有纠正第一阶段的误差以提高性能的能力。在两个水下数据集和两个通用对象检测数据集上进行的全面实验证明了我们方法的有效性和鲁棒性。
translated by 谷歌翻译
关键字斑点(KWS)旨在将特定的唤醒单词与其他信号区分开,以精确有效地为不同的用户区分。最近的工作利用各种深层网络来培训KWS模型,并以所有用户的语音数据集中培训,而无需考虑数据隐私。联合KWS(FEDKW)可以作为解决方案而无需直接共享用户的数据。但是,少量数据,不同的用户习惯和各种口音可能导致致命问题,例如过度拟合或体重差异。因此,我们提出了几种策略,以鼓励该模型不要过度适合FEDKW中的用户特定信息。具体而言,我们首先提出了一种对抗性学习策略,该策略会根据适合过度的本地模型更新下载的全局模型,并明确鼓励全球模型捕获用户不变的信息。此外,我们提出了一种自适应的本地培训策略,让客户拥有更多的培训数据和更多统一的班级分布执行更多的本地更新步骤。同等地,这种策略可以削弱那些数据较少资格的用户的负面影响。我们提出的fedkws-UI可以在FEDKWS中明确和隐含地学习用户不变信息。对联邦Google语音命令的大量实验结果验证了FEDKWS-UI的有效性。
translated by 谷歌翻译